物理机GPU设备

功能概述

ZStack Cloud云平台支持物理GPU透传功能,物理GPU可携带其上全部外设(包括:GPU显卡、GPU声卡、以及其它GPU上的小设备)以组为单位整体透传给云主机使用,让云主机享有物理机强劲的GPU并行计算能力。该功能适用于3D渲染、高清转解码、以及具备高密集运算特点的高性能计算(HPC)场景。

ZStack Cloud云平台支持以下型号的物理GPU透传:

NVIDIA AMD
Tesla T4 FirePro S7150
Tesla M6/M10/M60 FirePro S7150X2
Tesla P100/P40/P6/P4 Radeon Pro系列显卡
Tesla V100 Radeon Instinct系列显卡
RTX 5000/6000/8000 Radeon Vega系列显卡
GeForce GTX 1000系列 NULL
GeForce RTX 2000系列 NULL
GeForce RTX 3000系列 NULL
NVIDIA A系列 NULL
更多请参考[NVIDIA官方文档](nvidia.com/grid/latest/)

最佳实践

  • 确保物理机BIOS中开启Intel VT-d / AMD IOMMU功能,且物理机内核已开启IOMMU支持。
  • 停止云主机再执行卸载GPU操作,否则可能导致蓝屏以及暂停。
  • 对Windows云主机透传GPU设备场景,需要通过UEFI方式为云主机安装操作系统。
  • KVM虚拟化标记需要开启隐藏。
  • 云主机需开启Hyper-V。
  • 全局设置中开启PCI设备热插拔。
  • GPU性能低需要关闭节能模式。

      nvidia-smi -pm 1
    

注意事项

  • 一台云主机支持同时加载多个物理GPU设备,但不支持同时加载物理GPU和vGPU设备。
  • GPU透传给云主机后,更改物理机、更改物理机和主存储、高可用功能可能无法正常工作。
  • 全局设置PCI设备热插拔开关默认为true,若热插拔时出现硬件兼容性错误,或不支持该硬件设备时,建议关闭此功能(设置为false)。
  • 指定GPU规格方式支持批量创建云主机,但指定GPU设备方式仅支持单个创建云主机。
  • 确保已获取到GPU设备对应的驱动,相关驱动以及安装方法请联系GPU设备提供厂商获取帮助。
  • ZStack Cloud云平台物理机安装支持虚拟化的驱动程序为专用驱动,不能使用普通的Linux GPU显卡驱动。
  • NVIDIA License Server尽量安装在英文版操作系统中,不然会产生与web浏览器不兼容的情况,平台必须具有固定(不变)IP地址。平台必须至少有一个不变的以太网MAC地址,以便在注册服务器和在NVIDIA许可门户网站中生成许可证时用作唯一标识符。平台的日期/时间必须准确设置。

  • NVIDIA A系列显卡需要云平台升级至4.4.24及以上版本,物理机内核版本需要4.18.0以上 ,物理机gcc版本需要升级至8.3.1

  • RTX5000透传时需要在物理机 grub中配置video=efifb:off video=simplefb:off video=vesafb:off

results matching ""

    No results matching ""